Nhận dạng thực thể có tên

Nhận dạng thực thể có tên (Named-entity recognition - NER) (còn gọi là nhận dạng thực thể định danh, xác định thực thể hoặc trích xuất thực thể) là một nhiệm vụ con của trích xuất thông tin mà tìm kiếm và phân loại các thành phần nguyên tử trong văn bản vào những loại xác định trước như là tên người, tổ chức, địa điểm, thời gian, số lượng, giá trị tiền tệ, phần trăm v.v.Hầu hết các nghiên cứu về hệ thống NER có dạng nhận vào một khối văn bản chưa được chú thích ví dụ như dưới đây:và tạo ra một khối văn bản được chú thích như sau:Trong ví dụ này, các chú thích có thẻ ENAMEX được phát triển cho Hội thảo Hiểu Thông điệp (MUC) vào những năm 1990.Các hệ thống tiên tiến cho tiếng Anh có hiệu năng gần bằng con người. Ví dụ, hệ thống tốt nhất tham gia MUC-7 đạt điểm 93.39% của F-measure trong khi người chú thích được 97.60% và 96.95%.[1][2]